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Destiné à de futurs thématiciens, notamment géographes, le présent exposé n’a pas pour 


vocation de présenter la théorie de l’analyse des données par régression au sens statistique 
y 


du terme. Pour cela nous renvoyons aux nombreux ouvrages rédigés par les statisticiens 


eux-mêmes. Le but recherché ici est de proposer des exemples concrets de traitement ayant 


fait appel à l’analyse par régression linéaire multiple selon différentes logiques a priori 


éloignées les unes des autres. Nous verrons successivement comment la méthode des 


régressions linéaires multiples permet : 


d’analyser les liens entre une variable dépendante quantitative à expliquer et 
plusieurs variables quantitatives explicatives indépendantes comme on l’admet 
généralement ; 

de déterminer les équations d’un ajustement polynomial non-linéaire pour 
l'analyse des liens entre deux variables quantitatives ; 

de déterminer les équations de surfaces de tendances ; 

d’analyser la rugosité du relief ; 

de déterminer les équations polynomiales d’un modèle de correction 


géométrique applicable à des vecteurs et/ou des données raster. 


1. RÉGRESSION LINÉAIRE : LES PRINCIPES 


L’analyse descriptive des données repose sur une démarche en plusieurs étapes. On définit 


tout d’abord les caractéristiques des variables prises une à une (analyse univariée ou tri à 


plat), puis on observe les liens qui les caractérisent deux par deux (analyse bivariée ou tri 


croisée) pour finir par l’observation des structures multiples liant plusieurs variables 
(analyse multivariée). On distingue alors deux familles principales, la première consiste à 
observer les liens unissant une variable avec plusieurs autres (1 > n), la seconde considère 
simultanément les structures multiples liant différentes variables (n > n, analyse 
factorielle). Selon la nature des variables retenues les méthodes de calcul seront différentes 
mais la logique reste la même. L’analyse par régression linéaire multiple est une des 
solutions qui existe pour observer les liens entre une variable quantitative dépendante et n 


variables quantitatives indépendantes. 


Toutes méthodes faisant appel aux régressions reposent sur l’acceptation des hypothèses 
fondatrices de la statistique paramétrique! et la notion d’ajustement par les moindres 
carrés. La moyenne arithmétique d’une variable est par conséquent considérée comme un 
centre de gravité et la notion des moindres carrés consiste à minimiser la somme des 


résidus élevés à la puissance deux entre la valeur observée et celle extrapolée. 

1.1. Régression linéaire simple 

Un exemple simple d’ajustement par les moindres carrés est donné par l’analyse bivariée 
de variables quantitatives qui peut se simplifier par le calcul des variances et de la 


covariance des deux variables X et Y retenues. 


La variance répond à la formule suivante : 
x — 
Var = iy (x, = x) 
N'a 


où: n, nombre d’individus 


x; Valeur de la variable x pour l’individu i 


x, moyenne arithmétique de la variable x 


1 Pour simplifier à l’extrême, la statistique paramétrique repose sur l’hypothèse que les données sont des 
variables indépendantes distribuées selon une loi normale. 


La covariance considère les variations communes des deux variables selon la formule : 


CovXY = ISh — x)* (y, z y) 


i=1 


où: n, nombre d’individus 
x, Valeur de la variable x pour l’individu i 


x, moyenne arithmétique de la variable x 


Yi, Valeur de la variable x pour l'individu i 


y , moyenne arithmétique de la variable y 
Enfin, le coefficient de corrélation est donné par la formule : 


CovXY 


NVarX * VVarY 


Ceof .cor = 


Le coefficient de corrélation correspond au cosinus de l’angle formé entre deux droites de 
régression se croisant aux coordonnées des moyennes arithmétiques des deux variables 
observées (centre de gravité supposé). On définit donc deux droites répondant chacune à 


une équation affine : 


X'= al} +b1 
et 


Y'= a2X +b2 
X’ et Y’ étant les valeurs estimées à partir des valeurs observées X et Y. 


Dans le cas de l’analyse bivariée, les coefficients des équations sont facilement donnés 


par : 


i=1 


(x, = xv, >) 


al= 


Prenons comme exemple la matrice théorique suivante (table A1) : 


x 
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1.847222222 
3.622222222 
5.397222222 
7.172222222 
8.947222222 
9.538888889 
8.947222222 
8.355555556 
7.172222222 


y 
13.95157895 
13.05473684 
12.15789474 
11.26105263 
10.36421053 
8.570526316 
6.776842105 

5.88 
4.983157895 


X-moyX 
-4.777717178 
-3.777777778 
-2.777777778 
-1.777777778 
-0.777777778 

1.222222222 
3.222222222 
4.222222222 
5.222222222 


Y-moyY 
8.333333333 
5.333333333 
2.333333333 

-0.666666667 
-3.666666667 
-4.666666667 
-3.666666667 
-2.666666667 
-0.666666667 


(X-moyX)2 
22.82716049 
14.27160494 
7.716049383 
3.160493827 
0.604938272 

1.49382716 
10.38271605 
17.82716049 
27.27160494 


Table A1 : Exemple théorique 


(Y-moyY}2 
69.44444444 
28.44444444 
5.444444444 
0.444444444 
13.44444444 
2177777778 
13.44444444 
7.111111111 
0.444444444 


Le coefficient de corrélation est de -0.72844463, les équations sont : 


= 


et 


-0.8968X+ 15.745 (en jaune) 


X’ = -0.5917Y + 12.497 (en magenta) 


(X-moyX)(Y-moyY) 


-39.81481481 
-20.14814815 
-6.481481481 

1185185185 

2.851851852 
-5.703703704 
-11.81481481 
-11.25925926 
-3.481481481 


La somme des carrés des écarts entre les valeurs observées et celles théoriques est ici 


minimale pour les deux droites de régression, ce qui correspond à l’ajustement par les 


moindres carrés. Notons que ces écarts sont appelés résidus et qu’ils sont perpendiculaires 


(c’est-à-dire indépendants d’un point de vue mathématique) à l’axe de la variable 


explicative dont les valeurs ne changent pas par définition (figure A8). 


Movenne X = 6.77 


Movenne Y = 9.66 


Figure A8 : Les deux droites de régression et le coefficient de corrélation 


1.2. Régression linéaire multiple 


L’exemple développé à partir de deux variables permet de comprendre la logique de la 
théorie de la régression mais il ne peut être généralisé de la sorte aux régressions multiples. 
Le système à deux équations à deux inconnus présenté se résolvait facilement comme on 
l’a vu. Les équations se compliquent avec plusieurs régresseurs, deux méthodes distinctes 
permettent de résoudre les équations. La première repose sur la connaissance des 
coefficients de corrélation linéaire simple de toutes les paires de variables entre elles, de la 
moyenne arithmétique et des écarts-types de toutes les variables. La seconde repose sur des 


calculs matriciels. 


1.2.1. Les étapes de calcul fondé les variables descriptives 


Soit un ensemble de p variable où la p-ième variable est la variable indépendante. Toutes 


les variables sont au préalable centrées-réduites. Soit r12, r13... Ypp les coefficients de 


corrélations linéaires des paires de variables et S4, S2, ..., Sp les écarts-types. 


Prenons un exemple avec p = 4 soit 3 variables dépendantes. Dans un premier temps on 
calcule les coefficients de régression linéaire 4’1, 4’2, 4’; en résolvant un système de p-1 


équations à p-1 inconnues : 


Tip = à’1 + T1282 + l'i3d 3 


T2 = a’ + T18’ + r238°3 


T3 = a’3 + T318°1 + T3283 


Pour résoudre ce système on procède par substitutions successives : 


a’1= Tip - Tia 2 + T1383 


d’où 


T2% = d’2 +H T21» (rip - r282 + r138°3)) + T2383 


a’ = T2p - T2181 + T2383 


a’3= La - La1d”/2 + T3283 


Connaïissant désormais les coefficients de régression on détermine ceux des variables 


brutes : 


Enfin, la constante d’ajustement est donnée en résolvant l’équation pour la coordonnée à 


l’origine : 


E = Y- Q X174, X2— 4d} X3 


Le coefficient de détermination multiple est donné par : 


Prenons garde au fait que ce coefficient — dont les a”, constituent en quelque sorte la 
contribution — croît avec le nombre de variable. Par conséquent, ce comportement 
déterministe lié aux propriétés des variables aléatoires doit être compenser, on calcule alors 


le coefficient ajusté : 


(n-1) 
n-(p-1)-1 


(-R°) 


R’ajusté =1 


Où: n: nombre d'individus 


On peut également résoudre le système d’équations en prenant comme principe l’justement 


par les moindres carrés (Chadule) : 


n 
$e; min 
i=1 


Où: < : variance résiduelle 


Les coefficients a; sont alors extraits des équations : 


Cov,, =a, Var +a,Cov,, +...+a,.Cov,, : 


Cov, = 4,Cov,, +a,Var, +...+a,,Cov,, 
Cov „p1 = 4Covp -1,,+a,Cov,, +.….+a, Var, ; 


Les p-1 coefficients sont ensuite obtenus par résolution du système. Avec deux variables 


explicatives X; et X2 et une variable à expliquer Y on a par exemple : 


* S * * = * 
(Var, Covy ) (Cov,, COV y y ) Oy (rx (rx Fy y )) 
a = 2 1 2 142 — 1 2 A2. 
L— 2 = 2 
* =. * [1 — 
(Var. Vary, J— Cov% x, Oy, (1 rx x, 


* Le * * x * 
(Vary, Cov, ) (Covyy, Covy y, ) Oy (fiz o Fy x, )) 


a, = = 
Í x xx x ki ) 
r, *Var, |-Cov *{1—y 
(va x, “Va à CovY x, Oy, rx, 


Le coefficient de corrélation multiple est alors donnée par : 


rh +Tyy2 2x Fryx, Fy x, = 
PERS TA o c PE a a o AE i 
142 sr YY 


1.2.2. La notation matricielle 
L’équation de type : 
P=81+88 +81 +E 


est donnée sous forma matricielle par : 


y=XB+e 


Où : 
Yı 1 xu X21 E 
Y2 1 x, X2,2 Po Er 
y= sX =l ss „B= BEE 
Yni 1 Xina Xona B; En 
Yn 1 Xin Xan En 


Il s’agit dès lors de calculer le vecteur des estimateurs B défini par l’égalité suivante : 
BEI 

En notation matricielle X’ signifie la matrice X transposée et X“ la matrice inverse. 

Dans l’exemple qui suit nous réalisons une régression multiple pour expliquer la hauteur 
de neige en fonction de l’altitude, de la rugosité, de la pente, de l’orientation, de la latitude 


et de la longitude (table A2). 


H_NEIGE vecteur altitude rugosite pente orient. lat long. 


95 1 2768 252 22 324 8760219 438465.0625 
150 1 4108 333 29 308 8760195 438474.0625 
4 1 4045 62 5 249 8760168 438480.0625 

0 1 4572 85 8 14 8760135 438489.0625 

0 1 4614 115 10 63 8760105 438495.0625 
80 1 4321 176 16 130 8760072 438498.0625 
95 1 3886 72 6 199 8760039 438504.0625 
20 1 4206 57 5 32 8760012 438507.0625 
90 1 4192 266 23 197 8759985 438513.0625 
10 1 4051 69 6 113 8759955 438519.0625 
10 1 3746 62 5 149 8759922 438519.0625 
50 1 3789 42 3 218 8759895 438525.0625 
45 1 3771 44 4 53 8759865 438531.0625 
60 1 3796 48 4 101 8759838 438534.0625 
55 1 3885 77 7 332 8759811 438537.0625 

3 1 4295 113 10 18 8759787 438540.0625 
33 1 4467 147 13 50 8759760 438546.0625 


0 1 4764 12 1 276 8759730 438552.0625 
35 1 4313 38 3 350 8759703 438552.0625 
45 1 4387 40 3 46 8759673 438558.0625 


Table A2 : Hauteur de neige et variables environnementales 


Le produit X’X donne : 
20.0000 81976.0000 2110.0000 183.0000 3222.0000 175198869.0000 8770339.2500 
81976.0000 339594498.0000 8487334.0000 736618.0000 12861325.0000 718104679425 0000 35947950323.5000 
2110.0000 8487334.0000 366956.0000 32036.0000 386290.0000 18493638688.0000 925244282.8750 
183.0000 736618.0000 32036.0000 2799.0000 33323.0000 1603083666.0000 80246258.4375 
3222.0000 12861325.0000 386290.0000 33323.0000 771684.0000 28224580695.0000 1412891754.3750 
175198869.0000 718104679425.0000 18483638688.0000 1603083666.0000 28224580695.0000 1534732185500860.0000 76827675770567 .3000 
8770339.2500  35947950323.5000 925244282.6750 80246258.4375 1412891754.3750 76827675770567 .3000. 3845942542298.3300 

D’où (X’ X)" : 

42548515331.8374 73.5283 -569.7835 4096.6641 -164.4807 -3668.8247 -23739.2652 
73.5284 0.0000 0.0000 -0.0001 0.0000 0.0000 0.0000 
-569.7830 0.0000 0.0047 -0.0535 0.0000 0.0001 0.0003 
4096.6572 -0.0001 -0.0535 0.6061 0.0005 -0.0004 -0.0014 
-164.4807 0.0000 0.0000 0.0005 0.0000 0.0000 0.0001 
-3668.8247 0.0000 0.0001 -0.0004 0.0000 0.0003 0.0020 
-23739.2657 0.0000 0.0003 -0.0014 0.0001 0.0020 0.0133 


Le produit X’X est donnée par la formule : 


X 
aij = P biren 
kl 


Où: a: matrice résultat ; 
b et c : matrices initiales ; 
i: lignes ; 


j : colonnes. 


Le produit d’une matrice de k lignes et / colonnes par une matrices de / lignes par k 
colonnes donne une matrice carrée de k lignes et colonnes. D’où la matrice carrée 


suivante : 


20.0000 
81976.0000 
2110.0000 
183.0000 
3222.0000 


81976.0000 
339594498.0000 
84587334.0000 
736618.0000 
12861325.0000 


175196869.0000  718104679425.0000 
8770339.2500  35947950323.5000 


2110.0000 
6457334.0000 
366956.0000 
32036.0000 
386290.0000 


183.0000 
736618.0000 
32036.0000 
2799.0000 
33323.0000 


3222.0000 
12861325.0000 
386290.0000 
33323.0000 
771684.0000 


16483638686.0000 1603083666.0000  28224580695.0000 


925244262.6750 


80246256.4375 


1412691754.3750 


175198869.0000 
#18104679425.0000 
18453638686.0000 
1603083666 .0000 
28224580695.0000 


6770339.2500 
35947950323.5000 
925244282.6750 
60246256.4375 
1412891754.3750 


1534732185500860.0000 76827675778567.3000 


76627675776567.3000  3645942542296.3300 


L’inversion d’une matrice fait appel à des notions de calculs matriciels poussés que nous 


ne développerons pas ici. Retenons qu’en théorie toute matrice dont le déterminant est non 


nul peut être inversée (règle de Cramer). D’où dans notre exemple (X’X)! : 


42549515331.68374 73.5283 
73.5284 0.0000 
-569.7830 0.0000 
4096.6572 -0.0001 
-164.4807 0.0000 
-3668.8247 0.0000 
-23739.2657 0.0000 
Et X’y: 

580 

3458806 

140963 

12244 

181900 

7708792743 

305087446 


-569.7835 
0.0000 
0.0047 

-0.0535 
0.0000 
0.0001 
0.0003 


4096.6641 
-0.0001 
-0.0535 

0.6061 
0.0005 
-0.0004 
-0.0014 


-164.4807 
0.0000 
0.0000 
0.0005 
0.0000 
0.0000 
0.0001 


Donc (X’X?”X’y donne les termes de l’équation multiple : 


Constante : -6111180.498 


Altitude : -0.03526 
Rugosité : 1.0379 


Pente : -7.6228 


Orientation : 0.0907 
Latitude : 0.5191 
Longitude : 3.6401 


-3668.8247 
0.0000 
0.0001 

-0.0004 
0.0000 
0.0003 
0.0020 


-23739.2652 
0.0000 
0.0003 

-0.0014 
0.0001 
0.0020 
0.0133 


2. EXEMPLES D'APPLICATION 


L'utilisation des régressions multiples dépasse largement le cadre classique de 
l’explication d’une variable dépendante à partir de n variables indépendantes comme on 
l’admet généralement. Nous verrons tout d’abord un exemple appliqué à l’analyse du 
trachome” en fonction de paramètres biogéographiques pour illustrer cette approche 
classique. Trois autres exemples nous permettront d’aller plus en avant dans l’application 
des régressions multiples : l’ajustement non linéaire en analyse bivariée ; l’analyse par 
surfaces de tendance d’un phénomène géographique et la définition des équations d’un 


modèle de correction géométrique. 


2.1. Indicateurs environnementaux et Trachome 


Le trachome est une maladie contagieuse qui se transmet d’enfant à enfant ou de mère à 
enfant. L’infection se manifeste dès la première année et la prévalence augmente très 
rapidement pour atteindre un maximum qui serait d’autant plus précoce que le niveau de 
l’endémie est élevé. La prévalence du trachome actif diminue ensuite progressivement et 
laisse place à des lésions cicatricielles dont la fréquence augmente avec l’âge. Il n’y a pas 
de différence de prévalence selon le sexe significative dans l’enfance, par contre à l’âge 
adulte les femmes sont plus fréquemment atteintes du fait des contacts avec les enfants, 


elles présenteront par la suite plus fréquemment un entropion trichiasis que les hommes. 


Le trachome actif est caractérisé par une inflammation de la conjonctive tarsale supérieure 
avec envahissement de la cornée par un voile vasculaire (pannus). Ce stade inflammatoire 
représente la phase contagieuse de la maladie. L’inflammation trachomateuse en milieu 
hyper-endémique persistera quelques années avant d’évoluer vers la cicatrisation qui 


pourra se faire selon deux modalités : 


- soit l’infection est restée modérée et l’évolution se fera vers la guérison spontanée au prix 
de quelques cicatrices conjonctivales minimes sans conséquence fonctionnelles : c’est le 


trachome cicatriciel bénin. 


- soit l’inflammation conjonctivale a été intense et prolongée : la cicatrisation pourra alors 
dépasser son but et entraîner une fibrose rétractile de la paupière supérieure. Il s’agit alors 
d’un trachome cicatriciel grave susceptible d’aboutir à une déformation du tarse avec 
déviation des cils vers la cornée réalisant un entropion trichiasis. Le frottement des cils à 
chaque clignement entretien une érosion cornéenne particulièrement douloureuse, 
favorisant une surinfection qui évoluera vers une cécité complète et irréversible par 
opacification de la cornée. Une fois les lésions cicatricielles constituées, le seul moyen 
d'améliorer le pronostic et si possible d’empêcher la cécité est la chirurgie du trichiasis : les 
techniques chirurgicales sont relativement efficaces et sûres, mais elles sont 


insuffisamment diffusées et utilisées. 


C’est la durée et surtout l’intensité de l’inflammation trachomateuse qui déterminent le 
risque de l’évolution vers la cécité. Cette intensité est conditionnée par deux facteurs : les 
surinfections bactériennes et les réinfections. La plus grande gravité des réinfections est 


expliquée par un mécanisme combiné d’hypersensibilité et d’auto-immunité. 


Un certain nombre de facteurs de risque associés au trachome ont été identifiés. Ces 
facteurs sont individuels, comportementaux, sociaux et aussi environnementaux. C'est 
ainsi que la difficulté d'accès à l'eau, l'accumulation d'ordures, la proximité avec le bétail et 


la pullulation des mouches favorise la survenue d'un trachome. 


L'influence de la géographie et du climat est évoquée depuis longtemps dans le complexe 
pathogène du trachome. En zone intertropicale sèche, la diminution de l’humidité 
atmosphérique dessèche les muqueuses conjonctivales et favoriserait l’infection par les 
chlamydia. Les poussières pourraient jouer un rôle non négligeable en agressant la 
conjonctive et la cornée. Par ailleurs en hiver, le froid nocturne augmente la promiscuité 
dans les chambres et favoriserait la circulation interhumaine du germe. Dans une étude 
épidémiologique Salim rapporte qu’au Soudan la prévalence du trachome actif est 
inversement corrélée avec la pluviométrie et l’hygrométrie. Nous avons aussi observé 
dans l'enquête nationale réalisée au Mali, que le trachome actif était plus fréquent dans les 


régions sèches du nord comme Gao ou Tombouctou. 


L’exemple développé ci-dessous s’inscrit pleinement dans la quatrième partie de 
l’ouvrage. Il s’agit de déterminer des facteurs environnementaux du risque au Mali.. Les 
données sont issues d’une enquête biomédicale réalisée auprès de 11 000 personnes en 
Afrique de l’ouest. Elles sont confrontés à différentes variables environnementales 
susceptibles d’être liées à la maladie : latitude (LAT), longitude (LONG), pluviométrie 
(PLUVIO), température moyenne annuelle (TMOY) et hygrométrie (HYGRO) à partir du 
fichier des villages. Ces variables ont été récupérées dans le fichier des individus femmes. 
Les données manquantes ont été extrapolées par régression linéaire multiple avec les 
variables LAT et LONG. Les données sur le trachome sont quant à elles : trachome actif 
(TT), trachome ches les femmes (TF), trachome chez les enfants (TI) et trachome suspecté 


(TS). La figure A9 présente les cartes des variables environnementales retenues. 


Température (24 à 36 °C) Pluviométrie (24 à 1 203 mm/an) 


Altitude 27 à 600 m) 


Figure A9 : Les variables environnementales 


Par régression linéaire multiple, on calcule les degrés de liaisons entre les taux de 
prévalence entre la latitude, la longitude, la pluviométrie, l’altitude, la température 


moyenne et l’hygrométrie (table xx). 


coer. Cor. LAT LONG Pvt Allt de Troy He PREVALTF __PREVALT __PREVALTS  PREVALTT 


LAT 1 

LONG 0.531698%393 1 

P iw a 2812915 2512355 1 

A titti de D20234 0OŒIDSEH 02012986 1 

T may 0.11102981 O.ŒÆSEÆ01E -020m0 0.105105 1 

Hygre 51901632 OD094035 O1NS1S2 0.118531308 O0 AB IE 1 

PREVALTF 0222571057 O ©3332 O10827 00441032 O15318661 -021986461 1 

PREVALTI O26251036 O17773131 -0203232 00056969171 -O 0LBES699 -O 09W561) O 621063%6 1 

PREVALTS 025311565 -0327363% 030129919 0216814019 0338569 022722016 0. Lm66] 029810035 1 

PREVALTT 031651985 -033133656 0324164271 O.24758158 0.114298 0050112418 0.162626 002696 0.608 WLLE 1 
Caer. Cet LAT LONG Pvt AltbJe Tmoy Hg PREVAL IF _PREVALT __PREVALTS _ PREVAL TT 
LAT 1 

LONG 0.063605 2 1 

P iw a 0.160518615 0.263398 1 

Atti de 0.5300 693 0.077130 4 007 13561863 1 

T moy 0013003521 0.31926875 0017303 005940161 1 

Hygre 0.%910908 0.069200 0.196578 0072061519 O SEESE0 1 1 

PREVALTF 0019531875 0.00531916 001850753 0 00M533W36 0.035202 0 OLEIN LE 1 

PREVALTI 0m06®m6it 0. mi S915 0 0L569313 1 593E0S 0.0230 503 O 0066LES6L 03923131 1 

PREVALTS 0.40g?) 16 0.107 166918 00908122 OOUWO0H23 OŒ2ED0I9 00AIN 02157561} 0.068054? L 

PREVALTT  O.100181812 0.113796154 0.109541 0061296639 0.006454 O 00251426? O 026165715 BS#29E0S 0212313919 1 


Table A3 : Tables des corrélations multiples 


Les coefficients de corrélation multiple sont donnés par la table XX. A titre indicatif le cas 


1 présente les valeurs pour une régression n’intégrant que la latitude et la longitude, le cas 


2 intègre toutes les variables environnementales retenues. On constate que les corrélations 


obtenues sont toujours significativement plus élevées dans la cas 2. 


On peut 


Cas 1 Cas 2 
TT 0.37 0.45 
TS 0.34 0.50 
TI 0.27 0.32 
TF 0.25 0.33 


Table A4 : Taux de corrélation multiple 


dès lors envisager de produire des cartes de prédiction des taux de prévalence du 


trachome et des résidus connaissant les variables environnementales. Les coefficients des 


équations sont donnés par la matrice A5. 


TF (0.33) TI (0.32) TS (0.50) TT (0.45) 
Constante 14.05981086  -0.166492463 -121.0795444  2.083385988 
LAT 3.615939928  1.223183048 2.6892253  -0.248426023 
LONG -0.190359364  0.314126994  -3.111756389  -0.283659613 
PLUVIO 0.005563127 0.00153108  0.009886783  7.52743E-05 
ALT 0.033674547  0.005407455  0.039777358  0.008239454 
TMOY -1.25696877 -0.484097825 1983162114  0.018222353 
HYGRO -0.115784009  0.061047239  O0.225234599  -0.027915423 


Table A5 : Coefficients de régression multiple 


D'où, par exemple, pour TT : 


TTestimé = (-0.248426023 * LAT) — (-0.283659613 * LONG) + (7.52743E-05 * PLUVIO) + 
(0.008239454 * ALT) + (0.018222353 * TMOY) - (0.027915423 * HY GRO) + 2.083385988 


La figure A10 présente les cartes des valeurs estimées de prévalence de TT, TI, TF et TS. 
On constate bien évidemment des écarts entre la simulation et les valeurs mesurées dans 
les villages, le modèle n’expliquant que 40 % de la distribution. Une carte de taux de 
prévalence de TT obtenue par interpolation spatiale — inversement proportionnelle à la 
distance - est présentée en vis-à-vis de celle issue de la modélisation par régression 
multiple. Les deux documents sont très différents et l’on pourra retenir que ce n’est pas la 


proximité à un lieu caractérisé par de fort taux qui explique la répartition spatiale de TT. 


Estimation de prévalence de TT (0 - 7%) è Estimation de prévalence de TS(0- 48%) 


Estimation de prévalence de TF (17 - 64%) Estimation de prévalence de TI(0- 20%) 
* DEEE TE 


Figure A10 : Estimation des taux de prévalence par régression multiple 


2.2. Ajustement non-linéaire et régression multiple 


L’exemple théorique développé en introduction montrait un nuage de points distribués de 
manière non linéaire, d’où un faible coefficient de détermination (0.53) obtenu à partir 


d’un ajustement linéaire. 


= 0.8968x + 15.745 
Rê = 0.5306 


= 0.3259X - 5.5075x + 28.202 
R° = 0.9895 


Figure A11 : Ajustement linéaire et non-linéaire d’ordre 2 


On voit bien sur la figure A11 que les points répondent à une distribution qui s’aligne sur 


un morceau de parabole de type polynôme de degré 2 : 


Y'=a X° +a, X +b 


Il s’agit en fait d’une régression linéaire multiple à partir d’une même variable X dont les 


termes sont élevés à la hauteur du degré du polynôme selon la formule générique : 


Y'=aX'+a,X°+..+a X"+e 


Dans l’exemple présenté plus haut, un ajustement d’un degré 2 permet d’obtenir un 
coefficient de détermination de l’ordre de 0.9895. Lorsque les formes de la distribution 
sont plus complexes, on peut élever encore l’ordre du polynôme comme l’illustre la figure 


A12. 


= 0.0265x° + 0.8259 - 8.1991x + 32.215 
R° = 0.9699 


y = 0.1014X - 2.5079x + 20.616 
R° = 0.7938 


Figure A12 : Ajustements non linéaire d’ordre 3 à 5 


Lorsque la distribution ne suit pas une loi polynomiale on peut observer les limites de 


l’ajustement comme l’illustre la figure ci-dessous. On peut alors avoir recours, selon la 


forme, à une transformation logarithmique de la variable X pour donner une équation affine 


de type (figure A13) : 


Y'= a.In(X) + b 


y = 0.0179Ln(x) + 0.9447 


R° = 0.5955 


Figure A13 : Ajustements polynomial et logarithmique 


2.3. Surfaces de tendances, régression multiple selon la latitude et la 
longitude 


Lorsque les phénomènes étudiés sont fortement dépendants de leur position géographique 
on a recours aux surfaces de tendances pour extrapoler à l’ensemble de l’espace des 
valeurs initialement observées ponctuellement. Prenons un exemple théorique d’un 


phénomène marqué par un fort gradient sud ouest — nord est comme l’illustre les figures 
A14 et A15. 
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Figure A14 : Cartogramme d’un gradient 


Une régression linéaire multiple avec comme variables indépendantes la latitude et la 


longitude nous donne ici un coefficient de détermination de 1 et une équation : 


X'= 0.5Zat +0.5Long — 0.5 


Connaïissant la latitude et la longitude on peut désormais extrapoler la variable X à tout 
l’espace géographique découpé en un maillage plus ou moins fin. On obtient alors un plan 


de régression ou surface de tendance d’ordre 1 comme l’illustre le schéma suivant : 


- N UE 


Figure A15 : Surface de tendance d’ordre 1 — plan de régression 


On peut imaginer aisément une distribution géographique non linéaire d’un phénomène 


quelconque, une ondulation par exemple comme l’illustre les figures A16 et A17.. 


Figure A16 : Cartogramme d’une ondulation 


L’ajustement d’un plan de régression ne serait alors pas du tout représentatif, dans notre 
exemple le coefficient de détermination est même nul. Comme on avait recours à des 
polynômes de degré n on peut envisager ici des surfaces polynomiales de degré n. Par 


exemple, l’équation d’une surface de degré 2 est : 


X'= a Lat+a,Long + a,Lat* Long + a, Laf +a Long’ +E 


Soit présentement un coefficient de détermination de 0.95 et une équation : 


X'= 1.38 Lat + 1.38Long — 0.26 Lat * Long — 0.1Laf? — 0.1Long? — 2.04 


On obtient alors la surface suivante : 
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Figure A17 : Surface de tendance d’ordre 2 


Pour des distributions plus complexes, on peut augmenter le degré du polynôme, par 


exemple une surface de degré 3 comme l’illustre les figures A18 et A19.. 


Figure A18 : Cartogramme d’une vague 


Figure A19 : Surface de tendance d’ordre 3 
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On atteint cependant rapidement des limites eut égard au nombre d’inconnus dans le 


système d’équations à résoudre. Celui-ci est donné par la formule : 


++1 
Mnc = ÿ'i 


il 


où t, degré du polynôme. 


L’équation polynomiale d’ordre f se généralise ensuite selon : 


Z'= So a 


i=0 j=0 


Pour un polynôme de degré 3, l’équation générique est de la forme : 


Z'=aX+a,Y+a,X°+a,XY+aY*+a.X°+a,X°Y +a,XY° +a’? +e 


Pour un polynôme de degré 4, elle devient : 


Z'=a,X +a,Y +a,X°+a,XY +aY°+a,X°+a,X°Y +a,XY° +a,’ 


+4 X +a, X°Y’ +a XY’ +a X Y’ ++a,Y te 


Au-delà, le système d’équation à résoudre devient difficile à mettre en œuvre et, surtout, la 
surface extrapolée ne représente plus un phénomène géographique fortement dépendant de 
la latitude et de la longitude. Nous verrons dans un cours consacré au variogramme et 
covariogramme comment extrapoler des surfaces qui mettent en avant des cycles ou des 


phénomènes ponctuels. 


2.4. Analyse du relief et indicateur de rugosité 


Un cas particulier de d’application des surfaces de tendances, donc des régressions 
multiples, et celui de l’analyse de la « rugosité » du relief à partir d’un Modèle Numérique 
de Terrain (MNT). Un MNT est une base de données raster composée de NC colonnes et 


NL lignes dont les mailles renseignent sur l’altitude. 


Figure A20 : Filtre de rugosité du relief 


Afin d’obtenir une information synthétique sur les formes locales du relief on fait glisser 
sur chaque pixel de l’image une fenêtre de n mailles de côtés à l’intérieur de laquelle on 
ajsute une surface de tendance d’ordre 1 locale. La rugosité correspond à l’écart-type 
calculé sur les résidus entre les altitudes du MNT et celles de la surface de tendance. Plus 


la valeur de l’écart-type est élevée plus le relief est localement accidenté (creux, bosses, 


crêtes, talwegs...) et inversement (plan d’un versant, d’une plaine...). La figure A20 


illustre la méthode mise en œuvre. 


Sans parler de la résolution du MNT, le choix de la taille de la fenêtre repose sur le niveau 
d’observation attendu par l’utilisateur. Une fenêtre de l’ordre de 3 à 9 pixels donnera des 
indicateurs locaux, ils seront plus globaux au-delà. La figure A21 présente une vue où 
différentes rugosités ont été calculées selon quatre tailles de fenêtres. Les teintes du rose au 
marron sont une gradation des valeurs de rugosité, respectivement de la plus faible à la 


plus forte. 


Figure A21 : Rugosité et taille des pixels 


2.4. Régression multiple et géoréférencement 


Un dernier exemple d’application des régressions multiples est consacré à la présentation 
des géoréférencements fondés sur un modèle polynomiale. Le principe d’un 
géoréférencement consiste à modifier les coordonnées d’une image ou d’un vecteur pour la 
rendre compatible avec un autre système de coordonnées, en l’occurrence celui d’une 
carte. Par exemple, le cadastre initialement levé par triangulation géodésique sur le terrain 
doit être rectifié pour être compatible avec les cartes à grande échelle de l’IGN. De même, 


une photographie aérienne et/ou une image de satellite doivent être géoréférencées pour 


épouser les formes de la carte. Nous verrons plus loin que si les équations nécessaires à de 
telles transformations sont les mêmes pour les images ou les vecteurs, leur mise en œuvre 
posera plus de problèmes pour les images. À ce sujet, notons dès à présent qu’une 
correction géométrique et un géoréférencement sont deux notions différentes trop souvent 
confondues. La première a pour but de corriger la géométrie de l’image qui, à l’état brut, 
est très perturbée par la combinaison : 

- des écarts d’attitude du satellite (lacet, roulis et tangage) ; 

- des propriétés de l’orbite, elles-mêmes fonction du géoïde ; 

- de la rotondité de la terre (déformation panoramique) ; 

- de la vitesse de rotation de la terre (1669.79 km.h“ à l’équateur, soit 4.17 km 
parcourus pendant les 9 s que durent l’acquisition d’une image Spot, par 
exemple) ; 

- de l’angle de prise de vue des pixels composants l’image ; 

- des erreurs de parallaxe dues à la forme du relief (corrigées en intégrant les 
données d’un MNT : orthorectification) ; 


- des erreurs liées à l’optique du capteur ; 


Figure A22 : Prise de points d’appui 


Selon les cas — et les moyens financiers dont on dispose — tout ou partie de ces 
perturbations seront corrigées. Très souvent, certaines des corrections sont réalisées en 


même temps que le géoréférencement, d’où la confusion citée plus haut. 


La mise en œuvre d’un géoréférencement consiste à relever les coordonnées de points 
identifiables sur les deux documents en question, la carte de référence (latitude et 
longitude) et l’image ou le vecteur (colonne et ligne) comme l’illustre la figure A22. Il est 
souhaitable de répartir au mieux les points sur l’ensemble des zones en commun dans les 


deux documents. On obtient la matrice de coordonnées suivante :. 


id Ligne Colone Latitude Longitude Résidus Lat Résidus Lon RMS error 
GCP #1 2748.625 -421.625 436662.751, 87671 51.398 -6.998 -0.239 7.002 
GCP #2 2001.625 -332.625 436790.594 8767339.312 -8.420 -0.150 8.422 
GCP #3 2510.625 -161.625 436152919 8767769.050 -22.920 SS 
GCP #4 2394.625. -33.625 435934.200 67660 78.646 -17.428 5.964 18.420 
GCP #5 2437.625 -127.625 436006.593 8767853.765 -19.532 0.676 19.552 
GCP #6 2490.625 -281.625 436100.550_ 8767501.042 -17.309 -1.195 17.350 
GCP #7 1187.625 -1215.625 433133.975 6765660.410 -0.072 2.923 2.924 
GCP #8 551.625 -1159.625 431741.564 8765919.176 -7.176 17.222 16.658 
GCP #9 635.625 -1255.625 431901.753 8765672.732 -9.546 7.334 12.038 
GCP #10 511.625 -1635.625 431550.569 8764859.465 -16.749 8.520 18.792 
GCP #11 107.625 -1111.625 430761.947 8766067.043 -14.420 3.250 14.781 
GCP #12 131.625, -979.625 430835.880 8766381.260 -15.843 15.546 22.198 
GCP #13 751.625 -2243.625 431975.686 8763473.215 -14.282 5.003 15.133 
GCP #14. 1655.625 -1987.625 434021.175 8763696.332 -1.955 3.200 9.405 
GCP #15, 2135.625 -2411.625 4349699686 6762900.232 -14.740 14.372) 20.567 
GCP #16 2300.780442 -2448.176 435509.350 8762791.650 -10.492 19.925 22.518 
GCP #17, 2291.625 -2469.625 435308.776 0762734.952 -10.655 9.064 14.001 
GCP #18, 1971.625 -2235.625 434646.551 8763304.117 -12.251 9.673 15.735 
GCP #19, 1487.625 -2311.625 433597.911 8763207.743 -2.305 7.352 7.705 
GCP #20, 2051.625 -2523.625 434776.307 8762658.226 -10.348 10.673 14.866 
GCP #21. 1663.625 -2295.625 434005.138 8763215.794 -13.175 8.506 15.726 
GCP #22 1107.625 -2043.625 434007.629 8763203.846 564.471 -248.717 616.837 
GCP #23, 1379625 -2571.625 433299.350 6762646.650 -10.446 4.120 11.229 
GCP #24 1379.625 -3159.625 432844.367 8761405.308 -173.806 16.619 174.599 
GCP #25 1975625 -3203.625 434400.600 8761209.137 -54.321 24.044 59.405 
GCP #26, 2395.625 -2707.625 435466.095 8762209.601 -24.134 15.326 26.569 
GCP #27 2467625 -3153.625 435604.275 8761202.261 -18.037 11.148 21.204 
GCP #26 2655.625 -3265.625 435953.229 6760923.118 -17.307 6.795 19.413 
GCP #29 2563.625 -3171.625 435807.303 8761151.524 -19.806 13018 23.701 
Some 43.923 


Un géoréférencement consiste à définir les termes de deux polynômes d’ajustement de 
manière à estimer les latitudes et les longitudes observées à partir des coordonnées lignes 


et colonnes du document à modifier. Par exemple, pour un polynôme de degré 1 : 


Lat = a,Lig * b Col + £, 


Lon = a,Lig * b,Col + €, 


où Lat’ et Lon’ : la latitude et la longitude estimées ; 


Lig et Col : les coordonnées en ligne et en colonne de l’image ou du vecteur; 


an, bn et €, : les termes du polynôme. 


Notons qu’un minimum de points de contrôle est à prendre en fonction du degré du 


polynôme, ce seuil répond à la formule : 


Gs (+1) +2) 
2 


où t, degré du polynôme. 


Le parallèle avec les surfaces de tendances présentées plus haut est évident et l’on peut de 
la même manière élever le degré des polynômes pour obtenir un meilleur ajustement. 
Notons cependant que la fiabilité du modèle n’est plus estimée par le coefficient de 
détermination mais par un incateur quadratique moyen (Root Meau Square ou RMS) 


donnant les disatnces entre la position observée et celle estimée : 


2 
RMS, = J(at, — lat,)° +(lon, — lon, ) 


où n : numéro du point ; 
lat’ et lon’ : latitude et longitude estimées ; 


lat et lon : latitude et longitude observées. 


Les lignes surlignées en couleur dans la matrice indiquent des points aberrants qu’il 
conviendrait d’éliminer de la collection initiale. Ces aberrations sont souvent dues à des 
erreurs de saisies ou à des mauvaises interprétations entre l’image et la carte ou bien 
encore à grande différence d’échelle — voire de qualité — entre l’image et la carte. Après 
vérification de la qualité du modèle celui-ci est appliqué à l’image pour obtenir une 


nouvelle image désormais correctement géoréférencée comme l’illustre la figure A23. 


Figure A23 : Image corrigée et carte IGN 


Le géoréférencement fondé sur un modèle polynomiale atteint rapidement ses limites 
puisqu'il n’intègre pas les altitudes sources d’importantes erreurs de parallaxe. Il est 
néanmoins facile à mettre en œuvre et efficace avec des données vectorielles ou des images 


de secteurs offrant peu de dénivelé. 


